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面向 新 闻 推荐 的 用 户 兴趣 模型 构建 与 更 新 


袁 仁 进 ， 陈 刚 , 李 锋 
(信息 工程 大 学 地 理 空间 信息 学 院 ， 郑 州 450001) 


摘 要 : 针对 新 闻 推 荐 系统 中 用 户 兴趣 模型 构建 与 用 户 兴趣 漂移 问题 ， 提 出 了 一 种 面向 新 闻 推 荐 的 用 户 兴趣 模型 构建 
与 更 新 方法 。 首 先 ， 采 用 了 向 量 空间 模型 与 Bisecting K-means 聚 类 算法 构建 了 原始 用 户 兴 趣 模 型 ; 然后， 以 艾 宾 浩 斯 
遗 总 曲线 为 基础 构造 了 遗 总 函数 ， 并 以 此 对 用 户 兴 趣 模型 进行 时 间 加 权 ， 从 而 达到 对 用 户 兴 趣 模型 更 新 的 目的 。 实 验 
以 基于 用 户 的 协同 过 滤 推 荐 、 基 于 物品 的 协同 过 滤 推 荐 为 baseline， 实验 结果 表明 所 构建 的 原始 用 户 兴 趣 模 型 推荐 性 
能 更 优 ， 在 F 值 上 提升 了 4%， 更 新 后 的 模型 比 原始 模型 相 比 下 值 提 高 了 1.3%。 
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User interest model construction and update for news recommendation 


Yuan Renjin, Chen Gang, Li Feng 
(Institute of Geospatial Information, Information Engineering University, Zhengzhou 450001, China) 


Abstract: Aiming at the problem of user interest model construction and user interest drift in news recommendation system, 
this paper proposed a method of constructing and updating user interest model for news recommendation. Firstly, this method 
utilized vector space model and Bisecting K-means clustering algorithm to construct the user interest model. Then, it 
constructed the forgetting function based on Ebbinghaus's forgetting curve, and utilized the forgetting function to update the 
user interest model by adding time-weight. In the experiments, this paper took user-based and item-based collaborative 
filtering recommendation as baseline, and the result shows that the original model proposed in this paper has better 
recommendation performance, with an increase of 4% in F-value, and the updated model is higher than the original model in 


F-value by 1.3%. 


Key words: personalized recommendation; vector space model; user interest model; user interest drift; forgetting function 


在 信息 化 、 大 数据 时 代 ， 面 对 数据 量 的 爆炸 式 增长 , 个 性 ” 行 了 总 结 和 分 析 ， 但 未 对 用 户 兴 趣 漂移 进行 研究 。 

化 推荐 技术 已 经 成 为 各 个 领域 有 效 利用 海量 资源 信息 为 用 户 提 在 实际 情况 中 ， 新 闻 具 有 很 强 的 时 效 性 ， 同 时 用 户 的 兴 
供 个 性 化 服务 的 一 种 首选 方案 。 目 前 已 经 在 电子 商务 、 音 乐 、 也 会 随 着 时 间 变 化 而 漂移 。 目 前 针对 用 户 兴趣 漂移 算法 主要 有 
新 闻 、 电 影 等 领域 发 挥 着 重要 作用 。 时 间 窗 口 法 、 遗 忘 函数 法 以 及 混合 算法 三 种 。 时 间 窗 口 法 是 利 
用 户 兴趣 建 模 是 推荐 系统 的 关键 技术 之 一 。 协 同 过 滤 推 荐 ”用 时 间 窗 口 的 移动 筛选 出 用 户 的 最 新 兴趣 , 文献 错误 ! 未 找到 引 
算法 52 作为 推荐 系统 中 的 经 典 算法 , 已 被 诸多 学 者 应 用 在 新 闻 ”用 源 。 对 该 方面 进行 了 研究 。 遗 忘 函 数 法 是 利用 遗忘 函 数 改变 
推荐 中 ,并 在 协同 过 滤 推 荐 算法 基础 上 构建 了 用 户 兴趣 模型 6351。 用 户 不 同时 间 感 兴趣 物品 的 权重 ， 成 伟 丹 下 在 协同 过 
协同 过 滤 的 算法 并 未 考虑 新 闻 内 容 并 存在 可 解释 性 差 和 ” 滤 算 法 基础 上 ， 采 用 艾 宾 浩 斯 遗忘 曲线 来 描述 用 户 兴 趣 漂 移 ; 
数据 稀疏 问题 ，Okura 等 人 9, 考虑 了 新 闻 内 容 和 用 户 。 Sun 等 人 fn 基于 聚 类 和 最 近邻 构建 了 用 户 兴趣 漂移 的 
偏好 ， 使 用 递归 神经 网 络 (RNN) 构建 了 用 户 兴趣 模型 ， 取 得 ”动态 模型 。 混 合算 法 是 前 不 同 算法 的 有 机 混合 。 邢 春晓 等 人 和 多 
了 较 好 效果 ; Zhang 等 人 和 有 ， 为 缓解 文本 不 足 ， 提 出 了 和 9 以 协同 过 滤 算 法 为 基础 ， 提 出 了 一 种 混合 算法 对 用 户 
结合 矩阵 分 解 、 主 题 分 析 和 指示 图 表示 的 协同 模型 。 同 时 新 闻 ”兴趣 变化 问题 进行 了 探讨 。 但 这 些 方法 有 的 仅 研究 用 户 兴 趣 漂 
内 容 和 新 闻 分 类 会 对 推荐 效果 产生 较 大 影响 ,在 新 闻 分 类 方面 ，” 移 问题 ,有 的 是 在 协同 过 滤 算 法 基础 上 研究 用 户 兴 趣 漂移 问题 ， 
古 万 荣 等 人 < ea 和 李 佳 珊 下, 对 新 闻 聚 类 算法 进 。” 对 解决 新 闻 推 荐 领域 问题 还 有 待 研究 。 
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针对 上 述 问题 ， 本 文 提出 了 一 种 
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图 1 


户 兴趣 模型 构建 与 更 新 框架 


2 “用 户 兴 趣 模型 构建 


2.1 新 闻 文 本 向 量化 


对 于 新 闻 集 D = {qj, qz, .…, dn}， 新 闻 集 的 VSM 表示 为 


W11 
M=|: 


Wn1 


Wim 


(1) 


Wnm 


[wii wiz, … Wim] 表 示 新 闻 i 的 新 闻 特征 向 量 , 其 中 wij 表 示 为 关键 
词 j 在 新 闻 i 中 的 权重 。 构建 VSM 的 关键 有 两 个 方面 : 一 是 确定 
关键 词 集 的 维度 m; 二 是 权重 wij 的 计算 。 
a) 关 键 词 集 的 维度 m。 首 先 提取 出 每 篇 新 闻 的 关键 词 ， 接 
着 采用 TF-IDF 算法 得 出 新 闻 集 中 关键 词 集 的 维度 m。 
b) 权 重 wij 的 计算 。 最 常用 和 有 效 的 权重 的 计算 方法 为 
TF-IDF 表示 法 。 该 方法 是 信息 检索 领域 的 成 熟 技 术 ， 本 文 就 不 
详细 展开 。 
为 使 权重 值 处 于 [0, 1] 区 间 内 且 新 闻 能 够 用 等 长 向 量 表示 ， 
余弦 归 一 化 的 方式 对 权重 进行 归 一 化 处 理 ， 权 重 计算 公式 


使 ) 
为 


清关 TF-IDF(i,)) 
2.2 构建 基于 层次 结构 的 用 户 兴趣 模型 
本 文中 ， 通 过 用 户 已 经 浏览 过 的 新 闻 数 据 构 建 用 户 兴 趣 模 
用 户 兴 趣 模型 采用 层次 结构 表示 : 用 户 一 新 闻 类 别 一 
新 闻 。 如 图 2 所 示 ， 第 一 层 节 点 为 用 户 层 节 点 为 用 户 浏 
览 的 新 闻 类 别 ， 第 三 层 节 点 为 用 户 浏览 过 的 新 闻 。 


2) 
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新 闻 类 别 1 


新 闻 类 别 2 


新 闻 类 别 m 


新 闻 Im 


图 2 基于 层次 结构 的 用 户 兴 趣 模型 
若 用 户 浏览 过 m 个 不 同 的 新 闻 类 别 ， 则 用 户 兴趣 模型 可 用 
模型 表示 : 

user = {(T1,w1,71), (Ty, W212), (Tm Wm nm) 
其 中 : 到 表示 第 i 个 新 闻 类 别 的 特征 向 量 ; 
别 的 权重 ; mw 表示 第 ;个 新 闻 类 别 包含 的 用 


如 下 
G) 
wi 表 示 第 ! 个 新 闻 类 
户 浏 览 过 的 新 闻 的 数 
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某 个 新 闻 类 别 的 特征 向 量 根据 该 类 别 所 包含 的 所 有 已 浏览 
过 的 新 闻 特 征 向 量 根据 兴趣 度 加 权 平 均 求 出 , 即 第 ;个 新 闻 类 别 
的 特征 向 量 Ti 的 计算 公式 为 


Deep,erl; 
Ti = (4) 


PejeE jl 


其 中 : 三 表示 新 闻 类 别 i 中 的 用 户 浏览 过 的 新 闻 集 合 ， ej 表示 新 
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录用 定稿 
闻 特 征 向 量 ; 7 表示 为 该 类 别 中 第 /个 新 闻 的 用 户 兴 趣 度 ， 用 户 
浏览 过 某 新 闻 即 表示 用 户 对 该 新 闻 有 兴趣 ， 因此 将 5 设 为 1， 则 


式 (4) 可 化 简 为 
T= G) 
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总 共 浏 览 过 的 新 闻 数 量 的 权重 来 计算 ， 如 式 〈6) 所 示 。 
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(6) 


在 计算 时 ， 用 户 兴趣 模型 表示 为 

Vuser = (Wi * Ty, wa * Ty Wm * Tm)T 
最 终 ， 使 用 余弦 相似 度 计算 候选 新 闻 4di 与 用 户 
计算 公式 如 (8〉 所 示 。 

sim(user, Va, 中 = cos (wi * TiY, Va, ) 
wi * Ti 为 候选 新 闻 d; 所 属 新 闻 类 别 的 特征 向 量 ; 
征 向 量 。 
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之 间 的 相似 
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Ta ,为 qi 


户 兴 趣 模型 更 新 


理学 家 艾 宾 浩 斯 下 二 的 研究 指出 : 人 的 

规律 不 是 线性 变化 的 ， 而 是 随 着 时 间 呈 现 非 线性 变化 的 趋 
推荐 系统 中 ， 用 户 的 兴趣 也 是 随 着 时 间 变 化 而 改变 的 ， 

应 当 符 合 遗 忘 规律 ， 越 早 浏览 过 的 新 闻 在 脑海 中 的 印象 越 
其 在 用 个 模型 中 所 占 的 权重 也 就 越 小 。 

根据 此 规律 ， 构 造 与 艾 宾 浩 斯 遗忘 曲线 类 似 的 基于 时 间 的 
函数 ， 其 定义 如 式 (9) 所 示 。 
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、 新 闻 编 号 、 
的 第 三 方 库 
改进 的 哈尔滨 工业 大 学 信息 检索 中 心 的 停 用 
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Tui/Tu 


时 


的 用 户 浏览 新 闻 记 录 作 为 实验 数 


包括 10 000 名 用 


浏览 时 间 以 及 新 闻 文 本 内 容 
ht ne 


jieba 分 


预 处 理 30 条 的 用 户 


,将 浏览 记录 超过 3 


出 ， 共 得 到 417 名 


览 记 录 作 为 测试 集 。 


关系 。 图 4 为 本 文 构造 的 遗忘 函 
新 闻 的 记 


函数 变化 趋势 图 ， 展 示 了 用 
忆 保存 比率 与 新 闻 浏 览 时 长 间隔 之 间 的 关系 ， 同 
数 的 变化 趋势 。 根 据 不 同 的 推荐 系 


统 ， 可 动态 调整 a 值 达 到 最 优 推荐 性 能 。 


3.2 ”基于 遗忘 函 
用 户 浏览 的 新 闻 在 用 
弱 ， 本 文采 取 式 (9) 中 的 遗 
用 户 中 的 权重 ， 即 表示 新 闻 在 用 户 中 的 权重 会 随 着 时 间 发 生变 


数 的 用 户 兴趣 模型 更 新 
户 脑 海中 的 印象 会 随 着 时 间 推 移 而 减 
忘 函数 来 量化 用 户 已 浏览 的 新 闻 


化 。 在 用 户 u 中 ， 新 闻 i 的 权重 ti; 为 
tui = F(u,i) (10) 
将 遗忘 函数 引入 到 上 文 提出 的 用 户 兴 趣 模型 中 ， 更 新 用 户 


兴趣 模型 。 对 于 用 户 已 浏览 的 新 闻 户 
在 式 (5) 中 加 入 新 闻 权 重 得 


<ej, tuj>, 


其 所 含 内 容 由 <ej> 变 化 为 
到 更 新 后 的 第 ;个 新 闻 类 


出 


别 的 特征 向 量 T; 


用 户 的 32 770 条 浏览 记录 。 将 这 些 数据 
分 成 5 组 ， 每 组 包含 200 名 用 


户 ， 并 将 每 个 用 户 的 后 10 
每 组 数据 中 的 抽样 结果 有 重复 ， 为 保 


证 实验 结果 客观 性 ， 将 5 组 数据 的 测试 结果 取 平 均值 作为 最 后 


的 实验 结果 。 
4.2 评估 指标 
为 平衡 准确 率 与 召回 率 两 者 之 间 的 结果 ， 本 文采 用 下 值 作 
为 实验 的 评估 指标 ，F 值 由 准确 率 和 召回 率 组 合计 算 。 准 确 率 
和 召回 率 由 混淆 矩阵 表示 ， 如 表 1 所 示 。 
表 1 混淆 矩阵 
被 推荐 未 被 推荐 
喜欢 true positive(TP) false negative(FN) 
不 喜欢 false positive(FP) true negative(TN) 
准确 率 P、 召 回 率 R 的 计算 公式 为 
ee P ( 1 3) 
和 E TE (1 4) 


F 值 的 计算 使 用 准 


共同 表示 为 
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_ 2PR 
~ P+R 


(15) 


2) 更 新 后 的 模型 与 之 前 模型 相 比 较 


4.3 实验 结果 与 分 析 更 新 后 的 模型 推荐 性 能 受 式 (9 ) 中 遗忘 函数 的 权重 调控 因 
为 验证 本 文 所 提 方 法 的 可 行 性 以 及 推荐 效果 ， 实 验 中 以 基 。，” 子 a 所 影响 。 为 了 解 a 值 与 推荐 性 能 之 间 的 关系 ， 实 验 中 考虑 的 
于 用 户 的 协同 过 滤 推 荐 算法 和 fasA 、 基 于 物品 的 协同 过 滤 ”a 值 为 (0,0.2,0.4,0.6,0.8) 共 五 种 情况 。 表 4 展示 了 更 新 后 模型 
推荐 算法 和 及, 为 Baseline 进行 对 比分 析 ， 对 这 两 种 协同 。 中 不 同 的 a 值 在 不 同 推荐 结果 个 数 中 的 推荐 性 能 。 
过 滤 推 荐 算法 考虑 的 最 近邻 数 包括 (5,10,15,20) 四 种 ， 并 考虑 表 4 a 值 对 推荐 性 能 影响 
五 种 不 同 的 推荐 结果 个 数 (10,15,20,25,30)。 更 新 后 模型 ”N=10 N=15 N=20 N=25 N=30 
为 研究 新 闻 集 的 聚 类 簇 数 M 对 推荐 性 能 产生 的 影响 ， a=0 F=0.185 F=0.191 F=0.193 F=0.183 F=0.172 
Bisecting K-means 聚 类 算法 考虑 的 聚 类 复数 M 包 括 a= 0.2 F=0.192 F=0.209 F=0.211 F=0.183 F=0.174 
(10,15,20,25,30) 五 种 ， 对 应 的 评估 指标 结果 如 表 2 所 示 。 a= 0.4 F=0.203 F=0.221 F=0.223 F=0.210 F=0.194 
表 2 聚 类 复数 M 对 本 文 算法 F 值 影响 a= 0.6 F=0.202 F=0.219 F=0.220 F=0.203 F=0.189 
筷 数 M N=10 N=15 N=20 N=25 N=30 a= 0.8 F=0.173 F=0.185 F=0.186 F=0.169 F=0.157 
10 F=0.164  F=0.175  F=0.180  F=0.173  F=0.162 图 6 展示 了 表 4 中 a 值 变 化 引起 推荐 性 能 改变 的 变化 趋势 。 
15 F=0.182  F=0.196  F=0.205  F=0.192  F=0.187 可 知 ， 当 a = 0.4 时 ， 更 新 后 模型 的 推荐 性 能 最 优 。 在 a = 0.4 的 
20 F=0.193 。” F-0.211  F=0.215  F=0.187  F=0.179 遗忘 函数 下 ， 更 新 后 的 模型 与 之 前 的 模型 进行 比较 ， 两 者 之 间 
25 F=0.175  F=0.197  F=0.201  F=0.198  F=0.183 的 推荐 性 能 对 比如 图 7 所 示 。 更 新 后 模型 的 性 能 整体 优 于 之 前 
30 F=0.171  F=0.179  F=0.185  F=0.178  F=0.169 模型 ,，F 值 平均 提高 1.3%， 说 明 用 户 兴 趣 确实 随 着 时 间 变 化 而 
观察 表 2 结果 可 知 ， 当 推荐 结果 个 数 不 变 时 ，Bisecting ” 漂移;， 同时 本 文 提 出 的 遗忘 函数 有 助 于 用 户 兴 趣 模型 更 新 ， 但 
K-means 聚 类 算法 中 的 聚 类 簇 数 M 与 评估 指标 F 值 有 非 线 性 关 ”效果 不 是 很 明显 ， 探 讨 遗 态 函 数 对 推荐 性 能 的 影响 还 需 进一步 
系 ， 具 体 表现 为 F 值 随 着 M 的 增加 呈现 先 增 大 后 减 小 的 变化 趋 。 研究 。 
势 ， 并 当 M = 20 时 ，F 值 最 大 ， 即 推荐 性 能 最 优 。 
将 每 种 方法 中 不 同情 况 的 实验 结果 进行 比较 ， 选 取 最 优 的 
结果 作为 每 种 方法 的 实验 数据 。 主 要 包括 两 个 实验 : a) 本 文 所 
构建 的 模型 与 协同 过 滤 算 法 相 比 较 ; b) 更 新 后 的 模型 与 之 前 模 
型 相 比 较 。 
1) 本 文 所 构建 的 模型 与 协同 过 滤 算 法 相 比 较 : 
将 实验 得 出 的 五 组 F 值 数据 计算 平均 值 ， 不 同 算法 得 出 的 7 " 
F 值 平 均值 如 表 3 所 示 。 图 6 a 值 对 更 新 后 模型 的 推荐 性 能 影响 
表 3 本 文 所 构建 的 模型 与 协同 过 滤 算 法 的 F 值 相 比 较 
算法 N=10 N=15 N=20 N=25 N=30 
基于 用 户 。 F=0.166 F=0.173 F=0.168 F=0.157  F=0.148 
基于 物品 F=0.162 F=0.174 F=0.164 F=0.160  F=0.146 
本 文 模型 ”F=0.193 F=0.211 F=0.215  F=0.187  F=0.179 
图 5 展示 了 表 3 中 不 同 算法 的 下 值 变化 情况 。 从 图 中 可 知 | ] 
本 文 模型 的 推荐 效果 与 两 种 协同 过 滤 推 荐 算法 相 比 有 较 大 提升 ， 人 
推荐 效果 更 优 。 当 推荐 新 闻 个 数 在 [15，20] 区 间 内 时 ， 各 种 算 图 7 本 文 模型 与 更 新 后 的 模型 比较 
法 的 推荐 效果 相对 来 说 最 好 ， 在 该 区 间 内 ， 本 文 模型 的 F 值 比 5 ”结束 语 
两 种 协同 过 滤 算 法 平均 高 于 4%。 
a) 与 基于 用 户 的 协同 过 滤 推 荐 算法 和 基于 物品 的 协同 过 滤 
E 荐 算法 相 比 ， 本 文 结合 VSM 和 Bisecting K-means 聚 类 算法 
构建 的 用 户 兴 趣 模 型 推荐 效果 更 好 ， 在 F 值 指 标 上 平均 提高 了 
4%。 
b) 利用 遗忘 函数 更 新 后 的 用 户 兴 趣 模型 与 原始 模型 相 比 ， 
E 荐 性 能 稍 有 提升 ， 在 F 值 指标 上 平均 提高 了 1.3%。 
» - c) 在 实验 数据 中 , FF 值 一 直 呈 现 先 高 后 低 的 趋势 ， 这 一 现 
图 5 不 同 算法 之 间 F 值 比较 象 本 文 目前 还 难以 解释 ， 还 需 进一步 深入 研究 。 


本 文 针 对 新 闻 内 容 和 新 闻 分 类 会 对 新 闻 推 荐 系统 的 推荐 性 
能 产生 影响 的 情况 下 ， 首 先 提出 了 一 种 基于 VSM 和 Bisecting 
K-means 聚 类 的 用 户 兴 趣 模型 构建 方法 ;考虑 到 用 户 兴趣 会 随 
着 时 间 而 发 生 漂移 ， 因 此 在 该 模型 基础 上 ， 参 考 艾 宾 浩 斯 遗忘 
线 构造 了 遗忘 函数 ， 并 利用 遗忘 函数 对 该 模型 进行 了 时 间 加 
权 更 新 .实验 结果 表明 , 本文 构建 的 模型 与 协同 过 滤 算 法 相 比 ， 
推荐 性 能 有 所 提高 ;更 新 后 的 模型 与 原始 模型 相 比 ， 推 荐 性 又 


有 进一步 改善 ， 但 提升 较 少 。 总 的 来 看 ， 本 文 提出 的 方法 可 作 
为 新 闻 推荐 领域 的 一 种 方案 ， 在 模型 构建 与 利用 遗忘 函数 更 新 


模型 方面 可 作为 研究 参考 。 在 本 文 基础 上 ， 下 一 步 将 进一步 研 
究 用 户 兴 趣 模 型 更 新 间 题 ， 以 及 对 结合 地 理 位 置信 息 的 新 闻 推 
荐 方法 进行 研究 。 
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